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摘 要 : [目的 /意义 ] 菠 葛 的 贮藏 性 与 成 熟 度 相关 ， 菠 葛 采 摘 前 对 其 成 熟 度 进行 识别 尤为 重要 。 本 研究 目的 在 于 
提出 一 种 新 型 网 络 模型 ， 提 高 菠 葛 成 熟 度 自动 识别 的 准确 率 和 速度 。[ 方 法 ] 首先 针对 菠萝 训练 数据 集 样本 少 与 实 


时 性 差 等 不 足 ， 利 用 在 自然 环境 下 拍摄 的 菠 葛 照片 ， 


9 建 了 种 植 区 场景 菠萝 成 熟 度 分 析 数 据 集 。 之 后 将 YOLOv4 


骨干 网 络 蔡 换 成 轻 量 级 网 络 MobileNet V3， 提 出 了 轻 量 级 的 MobileNet V3-YOLOv4 网络 。 同 时 训练 了 原 YOLOv4 模 
型 MobileNet V1-YOLOv4 模型 MobileNet V2-YOLOv4 模型 以 及 Faster R-CNN、YOLOv3、SSD300、Retinanet、 
Centernet 等 五 种 不 同 的 单 、 双 阶段 网 络 模型 ， 并 对 比 模型 的 评价 指标 ， 分 析 本 文 模型 的 优越 性 。[ 结 果 和 讨论 ] 试 
验 结果 表明 ，MobileNet V3-YOLOv4 训练 时 间 为 11,924 s， 参 数量 为 53.7 MB， 训 练 好 的 MobileNet V3-YOLOv4 在 验 
证 集 的 平均 精度 均值 (mean Average Precision, mAP) 为 90.92%， 对 于 黄 熟 期 菠 蔓 和 青 熟 期 菠萝 两 种 类 别 的 检测 
精确 率 (Precision) 分 别 为 100% 和 98.85% ， 平 均 精 度 (Average Precision, AP) (E4:3123g 87.6296, 94.21%, A El 
7 (Recall) 2} 5!) H 77.5596 , 86.00%, F 4r XX (F, Score) 分 别 为 0.87 和 0.92， 推 理 速度 (Frames Per Second, 
FPS) 80.85 img/s, [Z&i&] 本 研究 提出 的 MobileNet V3-YOLOv4 实 现 了 在 降低 训练 速度 、 减 小 参数 量 的 同时 ， 提 高 


了 菠 葛 成熟 度 识别 的 精度 和 推理 速度 ， 满 足 实 际 检测 需求 。 
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1 引 Ë 


落 葛 是 一 种 热带 水 果 ， 在 中 国 的 主要 产地 为 海 
南 、 广 东 等 南方 省 份 ， 种 植 面积 大 、 产 量 多 。 若 菠 
更 采 摘 作 业 较 晚 ， 极 有 可 能 导致 菠萝 腐 尾 ， 而 采摘 
过 早 则 会 影响 到 食用 状态 和 口感 "。 菠 更 从 采摘 地 
运往 全 国 各 地 ， 因 运输 目的 地 远近 不 同 ， 运 输 周期 
与 储藏 周期 也 不 同 。 菠 更 成 熟 度 越 高 ， 蔬 更 的 贮藏 
性 越 差 ， 运输 周期 相应 要 求 也 越 复 ， 故 需要 在 采摘 
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前 对 菠 葛 的 成 熟 度 做 出 准确 的 判断 ， 使 得 菠萝 能 在 
合适 的 成 熟 度 进行 采摘 与 运输 到 不 同 距离 的 目 
的 地 。 

传统 的 水 果 成 熟 度 分 析 方 法 一 般 是 通过 人 工 判 
别 、 对 果实 成 分 进行 分 析 ， 或 者 通过 检测 挥发 的 气 
体 成 分 与 浓度 进行 识别 “”。 传 统 的 方法 虽然 对 果实 
的 成 熟 程 度 分 析 比 较 准 确 ， 但 会 对 果实 的 成 长 进行 
干预 ， 且 过 程 复杂 、 成 本 高 、 效 率 低 ， 不 具备 实时 
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TEC. BATTAL ALTER AN ISEURUA Ae, E 
卷 积 神经 网 络 (Convolutional Neural Network, 
CNN) 的 图 像 识 别 算法 在 农业 中 应 用 逐渐 成 熟 ， 成 
为 解决 视觉 任 务 的 有 效 模型 中 。 许 多 学 者 将 CNN 
的 图 像 识别 算法 应 用 于 水 果 的 识别 检测 领域 ， 通 过 
提取 图 片 或 者 视频 中 果实 的 颜色 、 纹 理 、 形 状 特 
征 ， 实 现 果 实 的 识别 分 析 。Gai 等 ”提出 了 一 种 适 
合 检 测 体积 较 小 的 樱桃 水 果 改 进 的 YOLOv4 深度 学 
习 算 法 来 检测 樱桃 果实 ， 改 进 的 YOLOv4 模 型 网 络 
得 到 的 平均 精度 均值 (mean Average Precision, 
mAP) 值 比 普通 的 YOLOv4 高 0.15。Chen 等 “ Fil 
用 图 像 的 大 小 、 高 度 、 宽 度 等 特征 ， 通 过 YOLOv3 
网 络 对 指定 的 水 果 进 行 连续 跟踪 ， 并 在 跟踪 过 程 中 
检测 水 果 的 质量 ， 对 6000 幅 水 果 图 像 进行 了 测试 ， 
准确 率 高 达 88%。Kuznetsova S "! tH T Tli uh IE 
和 后 处 理 技术 使 YOLOv3 算 法 应 用 于 苹果 收获 机 
器 人 机 器 视觉 系统 ， 该 系统 对 苹果 平均 检测 时 间 
为 19 ms， 其 中 被 误 认为 苹果 的 物体 比例 为 7.8%， 
未 被 识别 的 苹果 比例 为 9.2%。Zhang 等 “设计 了 一 
个 13 层 的 CNN， 对 梨 、 苹 果 以 及 腐烂 水 果 进 行 分 
类 识别 ， 准 确 率 高 达 94.94%。 Chaikaew 等 ”研究 
了 一 种 应 用 神经 网 络 的 菠萝 分 选 机 ， 该 分 选 机 基于 
菠 葛 的 颜色 ， 将 菠 葛 的 成 熟 度 分 为 未 熟 菠 葛 、 部 分 
熟 菠 葛 和 完全 熟 菠 葛 ， 其 对 未 成 熟 菠 葛 的 识别 准确 
率 为 79%， 对 部 分 成 熟 菠 葛 的 识别 准确 率 为 82%， 
对 完全 成 熟 菠 葛 的 准确 率 为 100%。Cuong 等 “为 
了 实现 菠萝 成熟 度 的 预测 ， 提 出 了 一 种 改进 的 Tiny 
YOLOv4 模 型 ， 模 型 的 识别 准确 率 高 达 98.26%。 张 
RES UU 为 实现 果实 拾 捡 机 器 人 在 各 种 因素 影响 下 
的 田间 复杂 环境 对 单 类 别 菠 草 的 快速 准确 识别 ， 提 
出 采用 深度 学 习 的 深层 残 差 网 络 改 进 YOLOv3 卷 积 
神经 网 络 结构 ， 该 模型 的 识别 准确 率 达 95% 左右。 
Liu 等 "为 实现 菠萝 果实 的 智能 采摘 ， 提 出 了 一 种 
基于 双 目 立体 视觉 和 改进 的 YOLOv3 模型 的 自然 环 
境 中 菠 草 检测 与 定位 方法 ,改进 后 的 网 络 在 轻微 谈 
挡 的 测试 集 上 已 分 数 (F, Score) 和 平均 精度 (Av- 
erage Precision, AP) 值 分 别 为 93.18% 和 97.55%, 
在 闭塞 程度 的 加 重 测试 集 上 ， 书 Score 和 AP 值 分 别 
下 降 到 了 89.15% 和 91.47%。 

综 上 ， 目 前 目标 检测 算法 研究 状态 ， 具 有 快 


速 、 准 确 、 无 损 、 高 工作 效率 等 特点 , 文献 [5] 一 
[10] 中 的 识别 方法 的 数据 集 图 像 均 为 背景 单一 的 
图 片 ， 适 用 于 实验 室 等 无 遮挡 的 理想 场景 ， 而 生长 
状态 的 落 蔓 真实 场景 的 现场 检测 却 存在 枝叶 遮挡、 
TERR AIS, ee Sila, scm [11] 一 [12] 
中 虽然 实现 了 复杂 场景 下 菠 葛 果实 的 识别 ， 但 只 是 
对 单 类 别 的 菠 葛 识别 ， 不 具备 通用 性 ， 实 际 检测 工 
作 中 为 减少 成 本 ， 要 求 网 络 处 理 速 度 快 、 吞 叶 量 
大 、 识 别 精度 高 、 通 用 性 强 ， 一 般 卷 积 神 经 网 络 很 
难 达 到 指标 要 求 。 针 对 上 述 问题 ， 本 研究 以 YO- 
LOv4 "网 络 为 基础 ， 结 合 MobileNet V3 提出 了 新 
型 优化 网 络 ， 即 MobileNet V3-YOLOv4 模 型 ， 该 模 
型 具有 较 少 训练 时 间 和 识别 准确 率 高 的 优点 ， 满 足 
真实 场景 下 对 菠 葛 成 熟 度 快速 识别 分 析 需 求 。 


2 材料 与 方法 


2.1 数据 集 构建 


2.1.1 数据 获取 

网 络 训练 数据 采集 时 间 为 2023 年 3 月 25H , 
采集 地 点 为 湛江 市 徐闻 县 曲 界 镇 菠萝 的 海 ， 采 集 设 
备 为 SONY DSC-RX100M7， 采 集 图 片 的 像素 为 
720X480。 根 据 菠 草 的 颜色 、 形 状 、 纹 理 等 特征 ， 
本 人 研究 将 自然 环境 需要 采摘 的 菠萝 划分 为 青 熟 期 和 
黄 熟 期 。 对 采集 的 图 片 进行 初步 秘 选 ， 将 过 度 曝 
光 、 过 度 模 糊 、 不 含 目标 的 照片 舍弃 。 经 过 筛选 后 
得 到 1580 幅 图 片 ， 其 中 黄 熟 期 菠 葛 图 片 674 幅 、 青 
熟 期 菠 葛 图 片 906 幅 ， 随 机 选择 1264 幅 图 片 作为 训 
练 集 、158 幅 作为 验证 集 、158 幅 作为 测试 集 。 

数据 样本 的 采集 发 生 在 环境 复杂 的 菠萝 种 植 田 
中 ， 且 在 采集 数据 时 ， 拍 摄 的 角度 、 时 间 、 光 照 强 
度 各 有 不 同 。 采 集 的 样本 包含 下 列 情况 : 无 遮挡 无 
阴影 光照 适中 的 合适 样本 857 幅 ， 核 叶 遮 挡 的 样本 
203 幅 ， 光 照 不 均 形 成 阴影 的 样本 232 幅 ， 光 照 强 
度 较 强 或 较 弱 影响 下 的 样本 112 幅 ， 多 种 影响 因素 
交叉 共存 下 的 样本 176 幅 。 自 然 环 境 下 采集 的 菠萝 
图 片 ， 保 证 了 样本 的 多 样 性 。 图 1 展示 了 受到 各 类 
因素 影响 的 各 类 型 样本 具体 情况 。 
2.1.2 ”数据 标注 

为 了 满足 网 络 的 训练 要 求 ， 使 用 图 像 标 注 软件 
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(f) (g) (h) 
ik: (a) (£) op AiR AY ERR p 8 GEA; (b)(g) FERRI OHA; (c(h) ori ses Ci, TE, WEIR) 分 别 用 于 


Aa) (i) A BiH RR (e) (J) WTA ARR LYRA 
Al 不 同 采集 环境 下 的 菠萝 样本 图 


Fig. 1 Pineapple samples in different collection environments 


labelimg 对 图 像 进行 标注 ， 生 成 *.xml 标 签 文件 ， 对 
于 图 像 中 目标 被 遮挡 的 面积 超过 70%、 目 标 表面 的 
阴影 过 重 无 法 分 辨 本 号 色彩 、 形 状 较 小 距离 较 远 无 
法 分 辨 边缘 轮廓 的 图 像 不 子 标 注 。 其 中 青 熟 期 菠 
蔓 、 黄 熟 期 菠 葛 对 应 的 标签 名 分 别 为 Growing pine- 
apple fll Mature pineapple. 


2.2 MobileNet V3-YOLOv4 网 络 构建 


YOLOv4 网 络 模型 存在 结构 复杂 、 参 数量 庞大 
等 问题 ， 导 致 训练 时 间 长 、 识 别 误差 大 等 ， 而 在 农 
田 场 景 下 ， 一般 架 设 极 少数 的 监控 设备 实现 农田 监 
测 ， 故 要 求 监控 设备 的 视觉 算法 ， 在 使 用 极 少 算 力 
的 条 件 下 实现 菠 草 的 快速 检测 。 基 于 此 ， 本 研究 引 
A T MobileNet V3 模型 符 代 YOLOv4 原 本 的 骨干 特 


征 网 络 提 出 了 MobileNet V3- 
YOLOV4, 
2.2.1 YOLOv43üMobileNet 
YOLOv4 网 络 结构 主要 
包括 三 个 部 分 : (DCSPDark- 
net53 "主干 特征 提取 网 络 ， 
可 实现 图 片 特 征 的 提取 ， 获 
得 三 个 有 效 的 初步 特征 层 ， 
G) 三 个 初步 有 效 特 征 层 的 大 小 


检测 小 物体 的 (52, 52, 
256) ， 检 测 中 等 物体 的 〈26， 
26, 512) ， 检 测 大 物体 的 
(13, 13, 1024); DZAT (neck) 由 空间 金字 
塔 池 化 结构 (Spatial Pyramid Pooling, SPP) 模块 
与 PAnet (Path Aggregation Network， 路 径 聚 合 网 
络 ) 两 部 分 共同 组 成 ，SPP 模 块 可 以 提升 感受 野 ， 
PAnet 则 是 由 YOLOv3 |"! 的 特征 金字 塔 (Feature 
Pyramid Networks, FPN) '* 改进 而 成 ， 该 结构 的 
功能 是 进行 加 强 的 特征 提取 ， 利 用 加 强 特征 提取 网 
络 ， 可 以 对 三 个 初步 的 有 效 特征 层 进行 特征 融合 ， 
提取 出 更 好 的 特征 ， 获 得 三 个 更 有 效 的 有 效 特 征 
E; @ 预 测 网 络 ， 由 三 个 YOLO Head 模 块 组 成 ， 
该 结构 可 利用 颈 部 结构 获取 到 的 更 有 效 的 有 效 特 征 


层 进行 回归 和 分 类 ， 获 得 最 终 的 预测 结果 。YO- 
LOv4 的 结构 如 图 2 所 示 。 


Backbone 


416,416,32 


(416,416,3) 


3 Bi E E 7 

5 Š N 

d E Sac 

SE: Ei B 
ee 


iki 图 中 SPP 模 块 用 4 个 大 小 分 别 为 13X13、9X9、5X5 和 1X1 的 卷 积 核 将 特征 层 的 输出 进行 最 大 池 化 操作 ;中 .回回 为 PANet 经 过 五 次 卷 积 
和 特征 融合 获得 的 特征 层 , 三 大 特征 层 对 应 的 大 小 分 别 为 52X52、26X26 和 13X13, 三 个 特征 层 将 被 送 到 Head 模 块 用 于 预测 
图 2 YOLOv4 网 络 结构 


Fig.2 Structure of YOLOv4 


MobileNet 是 谷歌 公司 2017 年 提出 的 一 种 专注 
于 移动 端 或 者 藤 入 式 设备 的 CNN 网 络 ， 其 特点 是 
轻 量 、 快 速 '" "该 网 络 首次 用 深度 可 分 离 卷 积 模 


块 蔡 代 了 普通 卷 积 的 方式 。MobileNet V3 则 是 结合 


深度 可 分 离 模 块 和 残 差 结构 提出 了 一 种 benck Zi 
构 “， 其 结构 如 图 3 所 示 。Benck 结 构 的 主干 部 分 ， 
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首先 利用 1X1 卷 积 进行 升 维 ， 然 后 利用 3X3 深度 
可 分 离 卷 积 进行 特征 提取 ， 再 利用 1X1 卷 积 降 维 ， 
残 差 部 分 则 是 输入 和 输出 直接 相连 。Benck 结 构 中 
用 h-swish 激活 函数 蔡 代 了 RELU 激 活 函 数 ，h- 
swish 函数 的 表示 为 公式 (1)， 并 在 可 分 离 卷 积 

降 维 卷 积 之 间 增 加 了 SE (Squeeze Excitation) 模 
块 ， 其 结构 如 图 4 所 示 ， 由 一 个 全 局 池 化 结构 
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(Global Pooling) 、 两 个 全 连接 层 (Fully Connected 
Layers, FC), — ^ RELU 激活 函数 和 一 个 h-sig- 
moid 函数 组 成 ，h-sigmoid phi BF fV T sigmoid ek 
数 ， 具 体 表 示 为 公式 (2). 


h - swish[ x] =x 8G 3) (1) 
h - sigmoid] x]= BEES 3) (2) 


注 : 四 为 普通 卷 积 用 于 升 维 ;@) 为 深度 卷 积 ;@@ 为 普通 卷 积 用 于 降 维 ;结构 @@ 不 需要 BN 块 进行 归 一 化 处 理 
图 3 Benck 结 构 
Fig. 3 The structure ofthe Benck 


图 4 SE 模 块 
Fig.4 SE module 


FPF- 


EEEEESSEN — 


2.2.2 MobileNet V3-YOLOvA 主干 特征 网 络 构建 

MobileNet V3-YOLOv4 使 用 benck £5 FJ Er 4X 
YOLOv4 骨干 网 络 中 CSPDarknet 的 Resblock， 改 进 
后 的 主干 网 络 结构 如 图 5 所 示 。 当 输入 的 图 片 为 
(416, 416, 3) 时 ， 先 经 过 一 个 大 小 3X3， 步 长 为 
2 的 卷 积 提取 出 (280, 208, 16) 的 特征 层 ， 再 经 
过 多 次 的 benck， 获 得 三 个 有 效 的 初步 特征 层 ， 分 
别 位 于 网 络 的 中 间 层 、 中 下 层 和 底层 ， 其 对 应 特征 
层 大 小 分 别 为 (52, 52, 40), (26, 26, 112) 和 
(13, 13, 160), ， 用 于 输入 下 层 的 加 强 特 征 提 取 网 
络 ， 进 行 更 有 效 的 特征 提取 。 


图 5 MobileNet V3-YOLOvVv4 的 主干 网 络 结构 


Fig. 5 The backbone network structure of MobileNet V3-YOLOv4 


此 外 ， 本 研究 还 构建 了 MobileNet VI-YOLOv4 
和 MobileNet V2-YOLOv4 两 种 网 络 结构 作为 对 比 
结构 。 
2.2.3 ”目标 检测 评价 指标 

本 研究 的 标签 分 为 Growing pineapple 和 Mature 
pineapple 2 类 ， 以 AP、 召 回 率 (Recall), F, Score, 


精确 率 (Precision) 和 mAP 值 作为 目标 检测 评价 指 
标 ， 相 应 计算 方法 如 公式 (3) ~ (6) 所 示 。 
TP 


Precision = TP-FN (3) 
| TP 
Recall = TP + FP (4) 
X Precisi XR 
LN S 2 recision ecall (5) 


Precision + Recall 
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1 
mAP = c 5 AP, (6) 


其 中 ，TP 为 目标 被 分 为 正 类 且 分 类 正确 的 数 
E, A; TN 为 目标 被 分 为 负 类 且 分 类 正确 的 数量 ， 
个 ; FP 为 目标 被 分 为 正 类 但 分 类 错误 的 数量 ,个 ; 
C 为 分 类 的 类 别 数 ， 本 人 研究 C 为 2。 


2.3 菠萝 成 熟 度 检测 算法 识别 工作 流程 


本 研究 首先 通过 使 用 摄像 机 人 工 拍 摄 的 方式 完 
成 图 片 的 采集 工作 ， 同 时 对 图 片 进 行 初步 盘 选 ， 将 
不 符合 网 络 训练 的 图 片 舍弃 ;接着 按照 菠 葛 的 成 熟 
指标 (本 研究 主要 依据 颜色 ) 进行 判别 ， 对 不 同 成 
熟 度 的 菠 葛 照片 进行 标注 ， 标 注 的 标签 分 为 黄 熟 度 
MERE; 将 标注 完成 的 图 片 作为 数据 集 ， 输 入 网 
络 进行 训练 ， 图 片 先 经 过 网 络 的 主干 结构 ， 获 取 到 
初步 特征 ， 然 后 经 过 网 络 的 颈 部 结构 ， 对 图 片 的 初 
步 特征 进行 进一步 处 理 ， 获 取 到 进一步 的 加 强 特 
征 ， 将 加 强 特征 输入 至 头 部 结构 ， 经 过 回归 和 分 
类 ， 获 得 预测 结果 ， 生 成 成 熟 的 网 络 模型 ;再 将 成 
熟 的 网 络 模型 输入 到 评价 模型 ， 对 网 络 模型 进行 评 
价 指标 的 计算 ， 最 后 输出 网 络 的 评价 指标 。 菠 葛 成 
熟 度 检测 算法 的 工作 流程 如 图 6 所 示 。 

开始 


y 
图 像 采 集 


Y 


对 水 果 的 成 熟 度 进行 人 
工 判别 ， 进 行 标注 


E 


黄 熟 度 标签 青 熟 度 标签 


数据 集 


训练 网 络 


输入 图 片 


Y 
经 过 骨干 网 络 ， 获 取 初 
步 特征 


y. 
初步 特征 输入 颈 部 结 
构 ， 获 取 加 强 特征 


Y 
加 强 特征 输入 头 部 结 
构 ， 获 取 分 类 结果 


T 
训练 好 的 模型 


Y 
计算 评价 指标 
Y 
输出 模型 评价 指标 
Cak) 


图 6 菠萝 成 熟 度 检测 算法 工作 流程 


Fig.6 Flowchart of pineapple ripeness test algorithm 


3 试验 结果 与 分 析 


本 研究 在 YOLOv4 网 络 基 础 上 进行 了 改进 ， 构 
建新 的 网 络 模型 MobileNet V3-YOLOv4。 为 验证 改 
进 方 法 对 菠 昔 成 熟 度 检测 的 有 效 性 ， 进 行 了 模型 性 
能 对 比试 验 、 模 型 分 类 训练 对 比试 验 以 及 复杂 环境 
下 菠 草 检测 准确 率 试验 ， 记 录 了 不 同 模 型 训练 自 建 
菠 草 数据 集训 练 集 的 性 能 指标 和 评价 指标 。 性 能 指 
标 包 括 训练 时 间 和 模型 参数 ， 是 评估 模型 复杂 度 的 
重要 指标 ， 通 过 对 比 不 同 模型 的 性 能 指标 ， 验 证 改 
进 后 的 方法 是 否 比 原 网 络 降低 了 模型 的 复杂 度 ; 模 
型 训练 评价 指标 包括 Precision 值 、AP 值 、 推 理 速 
度 (Frames Per Second，FPS) 等 ， 是 评估 模型 精 
度 和 推理 速度 的 重要 指标 ， 通 过 对 比 不 同 模型 的 评 
价 指标 ， 验 证 改进 后 的 方法 是 否 优化 了 原 模型 的 精 
度 和 推理 速度 。 同 时 为 了 验证 改进 后 的 模型 在 复杂 
环境 下 对 菠 葛 果实 的 检测 效果 ， 用 训练 好 的 模型 对 
菠 葛 数据 集 的 测试 集 图 片 进行 了 随机 检测 。 


3.1 试验 环境 与 参数 设置 


试验 的 软件 环境 为 : ubuntu 16.04, Anacon- 
da3, pytorch!.2.0, CUDA10.0, cudnn7.6.4, 
硬件 环境 为 : GPU: NVIDA GeForce GTX 
2080ti, CPU: Inter (R) Core (TM) i5-8400 CPU 
@2.80 GHz; 编译 语言 为 Python3.7。 网 络 训练 前 设 
置 的 初始 参数 如 表 1 所 示 。 
表 1 菠 葛 成 熟 度 试验 网 络 初始 参数 设置 


Table 1 Setting ofnetwork initial parameter 


初始 参数 初始 参数 值 
训练 周期 (epoch )/ 轮 300 
批 处 理 8 
初始 学 习 率 0.01 
动量 参数 0.937 


3.2 模型 性 能 对 比 


为 评估 模型 复杂 度 ， 选 用 Faster R-CNN YO- 
LOv3, SSD300, Retinanet, Centernet, YOLOv4, 
MobileNet VI-YOLOv4, MobileNet V2-YOLOvA 和 
本 研究 构建 的 MobileNet V3-YOLOv4 九 种 模型 参与 
模型 性 能 对 比分 析 ， 性 能 指标 包括 训练 时 间 、 饱 和 
周期 和 模型 参数 。 结 果 显 示 ， 本 研究 构建 的 Mo- 
bileNet V3-YOLOv4 模 型 的 训练 时 间 为 11,924 s, Æ 
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均 每 轮 的 训练 时 间 为 39.75 s， 在 第 256 轮 达到 饱 
和 ， 参 数量 为 53.7 MB， 达 到 饱和 的 时 间 则 比 YO- 


LOv4 减 少 了 3500.74 s， 参 数量 只 占 原 网 络 的 22%。 
九 种 模型 性 能 指标 对 比 结 果 如 表 2 所 示 。 


表 2 菠萝 成 熟 度 试验 各 模型 性 能 指标 对 比 


Table 2 Comparison of performance indexes of pineapple maturity test models 


序号 网 络 训练 时 间 /s 平均 每 轮训 练 时 间 /s 饱和 周期 / 轮 参数 量 /MB 
1 Faster R-CNN 31,881 106.27 180 108.0 
2 YOLOv3 20,820 69.40 170 235.0 
3 SSD300 155728 52.42 100 91.1 
4 Retinanet 10,128 33.76 42 138.0 
5 Centernet 16,462 54.87 160 124.0 
6 YOLOv4 19,172 63.91 214 244.0 
7 MobileNet V1-YOLOv4 11,000 36.67 195 SLI 
8 MobileNet V2-YOLOv4 12,068 40.23 227 46.5 
9 MobileNet V3-YOLOv4 11,924 39.75 256 53.7 


3.3 模型 训练 结果 对 比 对 比 


训练 结果 分 析 
为 了 验证 MobileNet V3-YOLOv4 模 型 的 分 类 预 
测 性 能 ， 利 用 Recal! 分 数 、F Score, Precision 和 
AP 值 的 四 个 指标 对 不 同 成 熟 度 的 菠萝 进行 分 类 识 


3.3.1 


别 。 同 时 本 研究 训练 了 YOLOv4、MobileNet V1- 
YOLOv4、 MobileNet V2-YOLOv4 以 及 Faster R- 
CNN, YOLOv3, SSD300, Retinanet, Centernet 等 
不 同 的 单 、 双 阶段 网 络 模型 ， 将 不 同 模 型 的 训练 结 
果 进 行 对 比分 析 ， 训 练 结 果 如 表 3 所 示 。 


表 3 单 类 目标 检测 试验 各 模型 评价 指标 结果 对 比 


Table 3 Comparison of the results of each model evaluation index in single-class target detection test 


序 导 网 络 FAW HAWES 
AP/% F Score Recall/% Precision/% AP/% F Score Recall/% Precision/% 
1 Faster R-CNN 72.36 0.76 78.09 73.33 94.41 0.94 94.95 93.62 
2 YOLOv3 85.19 0.78 67.45 93.65 89.31 0.84 75.87 93.22 
3 SSD300 68.00 0.81 80.37 80.70 94.20 0.96 95.83 95.64 
4 Retinanet 84.65 0.8 71.96 89.24 89.10 0.84 75.14 96.35 
5 Centernet 73.25 0.36 21.70 98.55 90.02 0.66 49.84 99.37 
6 YOLOv4 89.72 0.85 85.00 95.51 81.56 0.74 61.00 93.75 
7 MobileNet V1-YOLOv4 92.53 0.92 86.00 98.85 89.14 0.82 73.47 92.31 
8 MobileNet V2-YOLOv4 92.73 0.89 89.00 98.89 87.61 0.80 79.59 100.00 
9 MobileNet V3-YOLOv4 94.21 0.92 86.00 98.85 87.62 0.87 71.55 100.00 


由 表 3 可 知 ，Faster R-CNN, YOLOv3, SSD300, 
Retinanet 和 Centernet 五 种 不 同 的 单 、 双 阶段 网 络 模 
型 虽然 对 黄 熟 期 菠萝 的 检测 有 较 好 的 效果 ,但 对 青 
熟 期 菠 葛 的 检测 效果 较 差 。 五 种 单 双 网 络 中 ，Y0O- 
LOv3 对 青 熟 期 的 菠 蔓 检测 效果 最 好 ,但 AP 值 低 于 
YOLOv4 系列 的 所 有 网 络 。YOLOv4 为 基础 的 系列 
网 络 中 ，MobileNet V3-YOLOv4 的 精确 率 、AP 值 、 
F, Score 明显 高 于 YOLOv4 网络， 青 熟 期 AP 值 提升 
T 4.49%, F, Score 提升 了 0.07、Reca1 值 提升 了 
1%、 精 确 率 提 升 了 3.34%; 而 黄 熟 期 AP 值 提升 了 


MobileNet V3-YOLOv4 网 络 对 黄 熟 期 菠萝 的 检测 
HW, Precision 高 达 100.00%， 比 青 熟 期 蔬 划 高 出 
1.15%， 但 青 熟 期 菠 葛 的 Recall 4) BRE HE AUT HE E 
高 出 8.45%， 青 熟 期 菠萝 的 F, Score 9 9i A HJ gk 9 
高 出 5%， 不 同 成 熟 度 的 菠 葛 果实 在 复杂 环境 下 的 
AP 值 均 在 85% 以 上 ， 但 青 熟 期 的 AP 值 比 黄 熟 期 高 
出 6.59%. 

表 3 中 的 AP 值 、Reca1 值 和 Precisioz 只 能 验证 
网 络 对 单 类 目标 的 检测 效果 ， 而 评价 网 络 的 性 能 指 
标 还 有 FPS 值 与 mAP 值 ，FPS 表示 网 络 的 推理 速 


6.06%, F, Score $È FF T 0.13, Recall (Ñ t FH T 
16.55%, Precision 提升 了 6.25%. HH RAI je SS 


颜色 特征 明显 ， 易 与 背景 信息 区 分 ， 故 改进 后 的 


度 ， 即 网 络 每 秒 识 别 的 图 片 数 量 ，mAP 值 为 各 类 
别 AP 值 的 平均 值 ， 可 以 验证 网 络 对 多 类 目标 的 检 
测 效果 ， 测 试 结果 如 表 4 所 示 。 由 表 4 可 知 ， 五 种 
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单 双 阶段 网 络 中 mAP 值 最 高 的 为 YOLOv3 FPS 
AA 51.33 img/s， 而 推理 速度 最 快 的 SSD300 mAP 
值 的 表现 最 差 。MobileNet V3-YOLOv4 HJ mAP {Ë 
比 YOLOv4 高 出 5.28%， 比 YOLOv3 高 出 3.679%， 
推理 速度 比 YOLOv4 高 出 40.28 img/s， 比 SSD300 
高 出 8.91 img/s。 

表 4 多 类 目标 检测 试验 各 模型 评价 指标 结果 对 比 


Table 4 Comparison of evaluation index results of various mod- 


els in multi-class target detection test 


序号 网 络 FPS/(img:s ') mAP 
1 Faster R-CNN 15.22 83.39 
2 Yolov3 51.33 87.25 
3 SSD300 71.94 81.1 
4 Retinanet 27.17 86.88 
5 Centernet 68.07 81.64 
6 YOLOv4 40.57 85.64 
7 MobileNet V1-YOLOv4 69.97 90.83 
8 MobileNet V2-YOLOv4 75.95 90.17 
9 MobileNet V3-YOLOv4 80.85 90.92 

3.3.2 讨论 


通过 分 析 表 2~4 可 知 ，MobileNet V3-YOLOv4 
的 各 个 方面 都 明显 优 于 YOLOv4 模 型 ,虽然 有 些 指 
标 略 低 于 MobileNet V1-YOLOv4 和 MobileNet V2- 
YOLOv4， 但 考虑 到 实际 应 用 中 会 存在 不 同 的 限制 
条 件 ， 本 研究 从 以 下 几 个 方面 进行 讨论 分 析 : 

(1) 为 了 验证 本 方法 对 单 类 别 菠 葛 目 标的 检测 
效果 ， 将 模型 的 AP 值 作为 指标 。MobileNet V3- 
YOLOv4 对 两 种 成 熟 度 菠萝 的 AP 值 都 明显 高 于 
YOLOv4 系列 的 其 他 三 种 网 络 。 不 同 成 熟 度 的 菠萝 
果实 在 大 小 和 形状 特征 上 相差 较 小 ， 改 进 后 的 Mo- 
bileNet V3-YOLOv4 通 过 区 分 果实 的 颜色 特征 及 有 
细微 变化 的 纹理 特征 ， 实 现 了 对 单 类 别 目标 的 
判断 。 

(2) 为 了 验证 本 方法 对 多 类 别 目标 的 检测 效 
R, 将 Precision 和 mAP 值 作为 指标 。 由 于 黄 熟 期 
的 菠 葛 颜色 特征 更 明显 ， 纹 理 特 征 相 对 较 突 出 ， 黄 
熟 期 菠 葛 目标 与 背景 的 对 比 度 比 青 熟 期 更 大 ， 对 比 
的 其 他 网 络 只 能 保证 网 络 对 单 类 别 的 黄 熟 期 菠 葛 目 
标的 检测 效果 ， 实 际 生产 中 则 需要 考虑 的 是 多 类 别 
目标 的 检测 效果 。MobileNet V3-YOLOv4 和 Mo- 
bileNet V2-YOLOv4 Bx] 9 2439] YE 38 HY Precision 最 
高 可 达 100%， 但 MobileNet V3-YOLOv4 fif] mAP HE 
MobileNet V2-YOLOv4 提升 了 0.75%， 兼 顾 了 对 两 


种 成 熟 度 菠 葛 的 检测 效果 。 

(3) 从 计算 资源 考虑 和 模型 复杂 度 考 虑 ， 将 模 
型 的 参数 量 和 训练 时 间作 为 指标 。MobileNet V3- 
YOLOv4 的 参数 量 比 YOLOv4 网 络 减 少 了 37.8096, 
MobileNet V3-YOLOv4 的 训练 时 间 比 YOLOv4 减 少 
了 7248 s， 比 MobileNet V2-YOLOv4 减 少 了 144 s, 
与 MobileNet V1-YOLOv4 相差 较 少 ， 其 Precision, 
AP 等 都 明显 增长 ， 保 证 了 网 络 在 保持 精度 的 同时 , 
降低 了 模型 的 复杂 度 和 运算 成 本 。 

(4) 从 模型 识别 目标 的 速率 考虑 ， 将 FPS 作为 
评价 指标 MobileNet V3-YOLOv4 的 FPS 在 YO- 
LOv4 系列 表现 最 优 ， 约 为 原 YOLOv4 网 络 推理 速 
度 的 2 倍 ， 将 改进 后 的 模型 应 用 到 实际 生产 中 ， 极 
大 程度 降低 了 时 间 成 本 。 

综合 以 上 所 有 因素 ，MobileNet V3-YOLOv4 可 
以 兼顾 各 种 因素 作为 菠 葛 成 熟 度 分 析 的 可 行 模 型 。 


3.4 复杂 环境 下 MobileNet V3-YOLOV4 检 
测 菠萝 结果 


菠 蔓 生长 在 环境 复杂 的 农田 场景 中 ， 影 响 浅草 
的 检测 结果 因素 包括 交叉 的 枝叶 遮蔽 、 果 实 个 体 不 
完整 、 与 自身 颜色 相似 的 背景 颜色 (主要 针对 青 熟 
期 菠 葛 ) 、 其 他 的 背景 杂 物 ， 以 及 光照 变化 使 得 果 
实 表面 产生 的 阴影 、 光 照 较 暗 、 光 照 较 亮 等 。 为 了 
测试 MobileNet V3-YOLOv4 在 复杂 环境 下 对 不 同 成 
熟 度 菠 葛 果 实 的 检测 效果 ， 从 本 研究 菠 葛 数据 集 的 
测试 集中 随机 选取 包含 上 述 影 响 因素 的 照片 进行 检 
测 ， 且 每 张 照 片 中 的 影响 因素 并 非 单一 存在 ， 对 应 
了 真实 的 自然 环境 ， 验 证 改进 后 的 模型 在 受到 各 种 
复杂 因素 影响 下 的 自然 环境 中 是 否 能 取得 较 好 的 检 
测 效 果 ， 漏 检 情 况 已 用 白色 椭圆 框 标 出 ， 检 测 结 
如 图 7 所 示 。 从 测试 集中 挑选 出 6 张 图 片 进行 检测 , 
图 片 中 共有 7 个 菠 葛 ， 通 过 几 种 网 络 检测 结果 进行 
对 比 发 现 : (1) YOLOv4 网络 对 于 青 熟 期 菠 葛 有 较 
好 的 检测 效果 ， 但 对 于 黄 熟 期 菠 葛 检测 效果 较 差 ， 
出 现 的 漏 检 人 情况 较 其 他 三 种 网 络 最 多 ， 本 研究 的 检 
测 结果 示例 中 有 三 处 漏 检 的 情况 ， 漏 检 上 比例 为 3/7， 
与 MobileNet V2-YOLOv4 相同 ， 在 四 种 网 络 中 最 
高 ; (2) MobileNet V1-YOLOv4 和 MobileNet V2- 
YOLOv4 对 于 黄 熟 期 的 菠 葛 检测 效果 虽然 有 一 定 程 
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度 的 提升 ， 但 是 也 存在 一 定 的 漏 检 情 况 ， 对 于 黄 熟 
期 落 葛 本 研究 的 检测 结果 示例 中 MobileNet V1-YO- 
LOv4 有 一 处 漏 检 的 情况 ，MobileNet V2-YOLOv4 
有 两 处 漏 检 的 情况 ， 且 两 种 网 络 对 于 青 熟 期 的 菠 葛 
也 存在 漏 检 情 况 ， 对 于 青 熟 期 的 菠 葛 ， 本 研究 的 检 


CdJMobileNet V3-YOLOv4 检 测 结果 


ii AMAA ATBRMERY AMAA ARAARY 


(b)MobileNet VI- YOLOv4 检 测 结 Es 


测 结果 示例 中 两 种 网 络 均 有 一 处 漏 检 的 情况 ; (3) 
与 YOLOv4、MobileNet V1-YOLOv4 和 MobileNet 
V2-YOLOv4 三 种 网 络 相 比 ，MobileNet V3-YO- 
LOv4 可 以 兼顾 两 种 成 熟 度 的 菠 葛 ， 表 现 效果 最 佳 ， 
符合 自然 环境 下 菠 葛 果实 的 检测 需求 。 


图 7 四 种 网 络 在 复杂 农田 场景 下 对 不 同 成 熟 度 菠萝 的 检测 结果 


Fig. 7 Detection results of pineapple with different maturity by four networks in complex farmland scenario 


4 结 论 


本 研究 通过 将 YOLOv4 网络 中 的 骨干 网 络 替 换 
为 MobileNet V3， 提 出 了 轻 量 级 的 MobileNet V3- 
YOLOv4， 利 用 复杂 农田 场景 下 拍摄 的 不 同 成 熟 程 
度 菠 葛 果实 照片 进行 训练 测试 ， 检 验 其 性 能 优越 
性 。 通 过 对 比 发 现 MobileNet V3-YOLOv4 网 络 的 
mAP 值 比 YOLOv4 网 络 高 出 5.28%， 推 理 速度 比 原 
网 络 高 出 40.28 img/s， 对 青 熟 期 的 检测 精确 率 比 原 
网 络 高 出 3.34%， 对 黄 熟 期 的 菠 草 检测 精确 率 比 
YOLOv4 高 出 6.25%， 但 其 参数 量 只 占 YOLOv4 网 
络 的 1/5， 实 现 了 优化 模型 精度 和 推理 速度 的 同时 
减少 了 计算 量 和 参数 量 ， 使 得 模型 更 易 骨 入 到 不 同 
的 硬件 平台 ， 可 以 在 复杂 的 自然 场景 下 对 浅草 的 成 
熟 度 进行 实时 分 析 。 

本 研究 的 成 熟 度 类 型 只 有 两 种 ， 在 未 来 的 研究 


中 可 以 扩充 数据 集 ， 加 入 不 同 的 成 熟 度 类 型 。 本 研 
究 每 张 图 像 中 均 只 有 1—2 颗 菠 葛 果实， 而 实际 的 生 
产生 活 中 ， 视 野 较 广 的 农田 只 会 架设 少数 几 个 监控 
摄像 ， 监 控 摄像 所 拍摄 的 果实 数量 众多 ， 图 片 放大 
后 单一 果实 目标 可 能 会 像素 化 ， 从 而 影响 网 络 的 检 
测 效 果 。 通 过 提升 硬件 检测 设备 的 性 能 ， 提 升 图 片 
的 分 辩 率 ， 可 实现 图 像 放大 后 的 精准 检测 。 数据 采 
集 工 作 时 为 晴朗 天 气 ， 实 际 的 菠 蔓 检测 和 采 收 作业 
可 能 发 生 在 任何 天 气 情 况 下 ， 故 天 气 因 素 也 可 作为 
数据 集 的 影响 因素 之 一 ， 采 集 不 同 天 气 下 图 像 会 使 
得 数据 集 更 多 样 更 丰富 。 未 来 还 可 以 将 MobileNet 
V3-YOLOv4 网 络 与 交感 技术 、 无 人 机 等 相 结 合 ， 
进一步 实现 整 片 农田 菠 昔 成熟 度 实 时 分 析 ， 为 菠 葛 
实现 自动 化 采摘 提供 一 种 理论 文 持 。 
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Abstract: 

[Objective] Pineapple is a common tropical fruit, and its ripeness has an important impact on the storage and marketing. It is particu- 
larly important to analyze the maturity of pineapple fruit before picking. Deep learning technology can be an effective method to 
achieve automatic recognition of pineapple maturity. To improve the accuracy and rate of automatic recognition of pineapple maturity, 
a new network model named MobileNet V3-YOLOv4 was proposed in this study. 

[Methods] Firstly, pineapple maturity analysis data set was constructed. A total of 1580 images were obtained, with 1264 images se- 
lected as the training set, 158 images as the validation set, and 158 images as the test set. Pineapple photos were taken in natural envi- 
ronment. In order to ensure the diversity of the data set and improve the robustness and generalization of the network, pineapple pho- 
tos were taken under the influence of different factors such as branches and leaves occlusion, uneven lighting, overlapping shadows, 
etc. and the location, weather and growing environment of the collection were different. Then, according to the maturity index of pine- 
apple, the photos of pineapple with different maturity were marked, and the labels were divided into yellow ripeness and green ripe- 
ness. The annotated images were taken as data sets and input into the network for training. Aiming at the problems of the traditional 
YOLOV4 network, such as large number of parameters, complex network structure and slow reasoning speed, a more optimized light- 
weight MobileNet V3-YOLOv4 network model was proposed. The model utilizes the benck structure to replace the Resblock in the 
CSPDarknet backbone network of YOLOv4. Meanwhile, in order to verify the effectiveness of the MobileNet V3-YOLOv4 network, 
MobileNet V1-YOLOv4 model and MobileNet V2-YOLOv4 model were also trained. Five different single-stage and two-stage net- 
work models, including R-CNN, YOLOv3, SSD300, Retinanet and Centernet were compared with each evaluation index to analyze 
the performance superiority of MobileNet V3-YOLOv4 model. 

[Results and Discussions] MobileNet V3-YOLOv4 was validated for its effectiveness in pineapple maturity detection through experi- 
ments comparing model performance, model classification prediction, and accuracy tests in complex pineapple detection environ- 
ments. The experimental results show that, in terms of model performance comparison, the training time of MobileNet V3-YOLOv4 
was 11,924 s, with an average training time of 39.75 s per round, the number of parameters was 53.7 MB, resulting in a 25.59% reduc- 
tion in the saturation time compared to YOLOv4, and the parameter count accounted for only 22%. The mean average precision 
(mAP) of the trained MobileNet V3-YOLOV4 in the verification set was 53.7 MB. In order to validate the classification prediction per- 
formance of the MobileNet V3-YOLOv4 model, four metrics, including Recall score, F, Score, Precision, and average precision (AP), 
were utilized to classify and recognize pineapples of different maturities. The experimental results demonstrate that MobileNet V3- 
YOLOv4 exhibited significantly higher Precision, AP, and F, Score the other. For the semi-ripe stage, there was a 4.49% increase in 
AP, 0.07 improvement in F, Score, 1% increase in Recall, and 3.34% increase in Precision than YOLOV4. As for the ripe stage, there 
was a 6.06% increase in AP, 0.13 improvement in F, Score, 16.55% increase in Recall, and 6.25% increase in Precision. Due to the 
distinct color features of ripe pineapples and their easy differentiation from the background, the improved network achieved a preci- 
sion rate of 100.0096. Additionally, the mAP and reasoning speed (Frames Per Second, FPS) of nine algorithms were examined. The 
results showed that MobileNet V3-YOLOv4 achieved an mAP of 90.92%, which was 5.28% higher than YOLOv4 and 3.67% higher 
than YOLOv3. The FPS was measured at 80.85 img/s, which was 40.28 img/s higher than YOLOv4 and 8.91 img/s higher than 
SSD300. The detection results of MobileNet V3-YOLOv4 for pineapples of different maturities in complex environments indicated a 
100% success rate for both the semi-ripe and ripe stages, while YOLOv4, MobileNet V1-YOLOv4, and MobileNet V2-YOLOv4 ex- 
hibited varying degrees of missed detections. 

[Conclusions] Based on the above experimental results, it can be concluded that MobileNet V3-YOLOVvA proposed in this study could 
not only reduce the training speed and parameter number number, but also improve the accuracy and reasoning speed of pineapple ma- 
turity recognition, so it has important application prospects in the field of smart orchard. At the same time, the pineapple photo data set 


collected in this research can also provide valuable data resources for the research and application of related fields. 
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